评测任务管理

通过评测任务对问答效果进行测评,从用户提出问题开始,到系统召回内容,再到LLM生成回答的整个流程进行综合评测。

注意事项

效果评测按实际评测时产生的计算资源消耗计费。

操作步骤

  1. 登录OpenSearch控制台

  2. 选择目标地域,切换到OpenSearch-LLM智能问答版

  3. 在实例列表单击目标实例右侧的管理,在左侧导航栏选择效果对比

  4. 评测任务页签下,单击创建评测任务进入创建评测任务页面,输入任务名称,选择评测数据集,问答参数配置参见下表。

    参数

    说明

    模型选择

    对话搜索时使用的模型,选择范围为模型列表中所有可用的模型。

    说明

    可用模型是指可进行问答测试的模型。

    Prompt

    对话搜索时使用的Prompt,需要提前配置Prompt模板,详情请参见Prompt管理

    Prompt参数说明

    参数

    类型

    必需

    取值范围

    默认值

    描述

    attitude

    String

    -

    normal

    • 对话内容的语气,默认为normal

    • normal:无

    • polite:使用和蔼和礼貌的语气

    • patience:使用委婉和耐心的语气

    rule

    String

    -

    simple

    对话内容的详细程度,默认为detailed

    • detailed:详细和专业

    • stepbystep:详细且按步骤

    noanswer

    String

    -

    sorry

    无法回答问题时的回复,默认为sorry

    • sorry:抱歉,根据已知信息无法回答该问题

    • uncertain:我不知道

    language

    String

    -

    Chinese

    回答问题使用的语言,默认为Chinese

    • Chinese:中文

    • English:英语

    • Thai:泰语

    • Korean:韩语

    role

    Boolean

    -

    true

    开启后,将定制回答的角色。

    role_name

    String

    -

    AI小助手

    定制回答的角色,例如:AI小助手

    out_format

    String

    -

    text

    输出内容的形式,默认为text

    • text:文本

    • table:表格

    • list:列项

    • markdown:markdown

    文档召回参数说明

    参数

    类型

    必需

    取值范围

    默认值

    描述

    filter

    String

    -

    -

    召回文档时根据目标字段进行过滤。例:filter = field = value

    top_n

    INT

    (0, 50]

    5

    召回的文档数。

    sf

    Float

    [0,+∞)

    1.3

    文档召回的阈值,sf越大则召回文档的向量相似度越小。

    dense_weight

    Float

    (0,1)

    0.7

    选择稀疏向量模型时可选,表示稠密向量的权重,稀疏向量的权重则为:1-dense_weight。

    formula

    String

    -

    向量相似度

    文档召回的排序公式。

    operator

    String

    -

    AND

    文本召回时,文本token之间的关系。

    参考图片参数说明

    参数

    类型

    必需

    取值范围

    默认值

    描述

    sf

    Float

    [0,+∞)

    1

    参考图片的阈值,对于稀疏向量模型sf越大则参考图片与内容的向量相似度越大,对于稠密向量模型sf越大则参考图片与内容的向量相似度越小。

    dense_weight

    Float

    (0,1)

    0.7

    选择稀疏向量模型时可选,表示稠密向量的权重,稀疏向量的权重则为:1-dense_weight。

    Query理解参数说明

    参数

    类型

    必需

    取值范围

    默认值

    描述

    query_extend

    Boolean

    -

    false

    开启后会扩展Query,提升召回质量

    query_exten_num

    INT

    (0,+∞)

    5

    扩展Query的数量

    人工干预参数说明

    参数

    类型

    必需

    取值范围

    默认值

    描述

    sf

    Float

    [0,2]

    0.3

    人工干预问题的阈值,默认为0.3,sf越大则越容易匹配到人工干预词条

    其它参数说明

    参数

    类型

    必需

    取值范围

    默认值

    描述

    return_hits

    Boolean

    -

    false

    是否在结果中返回文档召回的结果

    csi_level

    String

    -

    strict

    绿网配置

    • none: 表示不需要经过绿网处理

    • loose: 内容需要经过绿网处理,且只有绿网判断确定存在敏感内容,就会被拦截,返回无结果

    • strict: 内容需要经过绿网处理,且一旦绿网判断确定或者疑似存在敏感内容,就会被拦截,返回无结果

    history_max

    INT

    (0,20]

    20

    多轮对话历史最大轮数,最大20轮

    link

    Boolean

    -

    false

    是否在结果中返回文档召回的具体来源

  5. 完成上述参数配置后单击确定创建评测任务,测评完成系统给出综合得分。

    image

    单击测试报告查看每条问答的评测结果。如评测结果不准确,单击人工评估,对结果进行人工订正。

    image

相关文档

效果对比